机器学习模型表现出两个看似矛盾的现象:训练数据记忆和各种遗忘形式。在记忆中,模型过于适合特定的培训示例,并容易受到隐私攻击的影响。在忘记时,最终忘记了在培训初期出现的例子。在这项工作中,我们将这些现象联系起来。我们提出了一种技术,以衡量训练示例的细节在多大程度上``忘记'',从而不易受到他们最近未曾见过的示例的隐私攻击的影响。我们表明,尽管非凸性可以防止在最坏的情况下忘记发生,但标准图像和语音模型在经验上确实会随着时间的流逝而忘记示例。我们将非确定性识别为潜在的解释,表明经过确定性训练的模型不会忘记。我们的结果表明,当使用极大的数据集培训(例如用于预训练模型的示例)时,早期看到的例子可能会观察到隐私益处,而牺牲了后来看到的示例。
translated by 谷歌翻译
端到端(E2E)模型通常通过浅融合伴随语言模型(LMS),以提高其整体质量以及对稀有单词的认可。同时,几项先前的作品表明,LMS容易在训练数据中无意中记住稀有或独特的序列。在这项工作中,我们设计了一个框架,用于检测LM培训数据中随机文本序列的记忆(我们称为Canaries),当一个人只有Black-Box(Query)访问LM融合语音识别器,而不是直接访问到达LM融合语音识别器LM。在与变压器LM融合的生产级构象体RNN-T E2E模型中,我们表明可以从300m示例的LM训练数据中检测到单一疾病的金丝雀的记忆。我们还激发了保护隐私的动机,我们还表明,通过示例梯度倾斜的LM培训而没有损害整体质量,这种记忆会大大减少。
translated by 谷歌翻译
最近的工作设计了方法来证明ASR培训中的模型更新可以泄漏计算更新中使用的话语的潜在敏感属性。在这项工作中,我们设计了第一种方法来证明有关培训ASR模型培训数据的信息泄漏。我们设计了噪声遮罩,这是一种填充风格的方法,用于从训练有素的ASR模型中提取培训数据的有针对性部分。我们通过在四个设置中使用用于训练最先进的构象模型的LibrisPeech数据集中提取名称来证明噪声掩蔽的成功。特别是,我们证明我们能够以11.8%的精度从蒙面的训练说话中提取正确的名称,而该模型的时间为55.2%的时间,则可以输出一些名称。此外,我们表明,即使在使用合成音频和部分成绩单的设置中,我们的方法也达到2.5%的正确名称准确性(47.7%的任何名称成功率)。最后,我们设计了单词辍学,这是一种数据增强方法,我们在训练中与多级训练一起使用(MTR),它提供了可比的实用程序作为基线,并通过在四个评估的设置中通过噪声掩盖进行了大大减轻提取。
translated by 谷歌翻译
我们重新审视使​​用公共数据来改善差异私有(DP)模型培训的隐私/实用权折衷的问题。在这里,公共数据是指没有隐私问题的辅助数据集。我们考虑与私人培训数据相同的分发的公共数据。对于凸损失,我们表明镜子血清的变体提供了与模型的维度($ p $)的人口风险保证。具体地,我们将镜像血液应用于由公共数据生成的丢失作为镜像映射,并使用私有(敏感)数据生成的丢失的DP梯度。为了获得维度独立性,我们需要$ g_q ^ 2 \ leq p $公共数据样本,其中$ g_q $是损失功能各向同性的量度。我们进一步表明,我们的算法具有天然的“噪音稳定性”属性:如果围绕当前迭代公共损失,请以$ V $的方向满足$ \ alpha_v $ -strong凸性,然后使用嘈杂的渐变而不是确切的渐变偏移我们的下一次迭代$ v $ v $比例为$ 1 / alpha_v $(与DP-SGD相比,换档是各向同性的)。在前作品中的类似结果必须使用预处理器矩阵形式的公共数据明确地学习几何图形。我们的方法也适用于非凸损失,因为它不依赖于凸起假设以确保DP保证。我们通过显示线性回归,深度学习基准数据集(Wikitext-2,Cifar-10和Emnist)以及联合学习(StackOverflow)来证明我们的算法的经验效果。我们表明,我们的算法不仅显着改善了传统的DP-SGD和DP-FedAVG,它没有访问公共数据,而且还可以改善DP-SGD和DP-FedAVG对已与公众预先培训的模型数据开始。
translated by 谷歌翻译
HyperParameter优化是机器学习中的一种无处不在的挑战,训练型模型的性能在其有效选择时依赖于大致依赖。虽然为此目的存在丰富的工具,但目前在差分隐私(DP)的约束下,目前没有实际的超参数选择方法。我们研究鉴于差异私立机器学习的诚实的封锁,其中,在整体隐私预算中占了超代调优的过程。为此,我们)显示标准的组合工具在许多设置中优于更高级的技术,ii)经验和理论上展示了学习率和剪辑规范率HyperParameters,III之间的内在联系,表明DPADAM等自适应优化器享有显着的优势在诚实的HyperParameter调整过程中,IV)借鉴了DP设置中ADAM的新颖限制行为,以设计新的更高效的优化器。
translated by 谷歌翻译
诸如联合学习之类的分布式学习范例通常涉及通过网络传输模型更新或梯度,从而避免传输私有数据。但是,有关培训数据的敏感信息可以从这种梯度透露。先前的作品已经证明,可以通过某些模型的最后一层(例如,reset)分析标签,或者通过使用匹配[zhu等人]的渐变与当前状态的额外知识,可以与模型输入共同重建。模型。在这项工作中,我们提出了一种方法来发现从最后一层的梯度和标签映射的梯度发现一组训练样本标签。我们的方法适用于多个域的各种模型架构。我们展示了我们在两个领域的模型训练中的效果 - 图像分类和自动语音识别。此外,我们表明,当与我们的方法结合使用时,现有的重建技术可以提高它们的功效。相反,我们证明梯度量化和稀疏可以显着降低攻击的成功。
translated by 谷歌翻译
我们考虑使用迷你批量梯度进行差异隐私(DP)的培训模型。现有的最先进的差异私有随机梯度下降(DP-SGD)需要通过采样或洗机来获得最佳隐私/准确性/计算权衡的隐私放大。不幸的是,在重要的实际情况下,精确采样和洗牌的精确要求可能很难获得,特别是联邦学习(FL)。我们设计和分析跟随 - 正规的领导者(DP-FTRL)的DP变体,其比较(理论上和经验地)与放大的DP-SGD相比,同时允许更灵活的数据访问模式。DP-FTRL不使用任何形式的隐私放大。该代码可在https://github.com/google-Research/federated/tree/master/dp_ftrl和https://github.com/google-reesearch/dp-ftrl处获得。
translated by 谷歌翻译
在联合学习(FL)设置中具有用户级差异隐私(例如,DP联合平均)培训神经网络的现有方法涉及通过*将其绘制到某些常量值的贡献限制每个用户的模型更新的贡献。但是,没有好处*先验*跨任务和学习设置的剪切规范设置:更新规范分布取决于模型架构和丢失,每个设备上的数据量,客户端学习率以及可能各种其他参数。我们提出了一种方法,其中代替固定剪切范围,一个剪辑到更新规范分布的指定定量位的值,其中定量位的值本身估计在线,具有差异隐私。该方法紧密地追踪量级,使用可忽略的隐私预算,与其他联合学习技术相容,例如压缩和安全聚合,并具有DP-Fedivg的直接联合DP分析。实验表明,适应性剪辑到中位更新规范的适应性剪辑跨越一系列现实的联合学习任务,有时甚至优于在后敏感中选择的最佳固定剪辑,而无需调整任何剪切的超参数。
translated by 谷歌翻译
This paper presents a corpus annotated for the task of direct-speech extraction in Croatian. The paper focuses on the annotation of the quotation, co-reference resolution, and sentiment annotation in SETimes news corpus in Croatian and on the analysis of its language-specific differences compared to English. From this, a list of the phenomena that require special attention when performing these annotations is derived. The generated corpus with quotation features annotations can be used for multiple tasks in the field of Natural Language Processing.
translated by 谷歌翻译
With the ever-growing popularity of the field of NLP, the demand for datasets in low resourced-languages follows suit. Following a previously established framework, in this paper, we present the UNER dataset, a multilingual and hierarchical parallel corpus annotated for named-entities. We describe in detail the developed procedure necessary to create this type of dataset in any language available on Wikipedia with DBpedia information. The three-step procedure extracts entities from Wikipedia articles, links them to DBpedia, and maps the DBpedia sets of classes to the UNER labels. This is followed by a post-processing procedure that significantly increases the number of identified entities in the final results. The paper concludes with a statistical and qualitative analysis of the resulting dataset.
translated by 谷歌翻译